Python 數據分析

Python 數據分析

作者: 江雪松 鄒靜
出版社: 清華大學
出版在: 2020-07-01
ISBN-13: 9787302555179
ISBN-10: 7302555176





內容描述


這是一個數據驅動的時代,如何解讀數據,將數據轉變為知識、利用知識做出決策將是所有企業必不可少的能力。在數據分析過程中我們清洗數據,探索數據,利用數據進行決策。本書將以當前最流行數據科學分析工具Python為基礎介紹如何構建基於Python的數據科學環境,利用Pandas處理與分析數據,如何利用Matplotlib以及Seaborn進行數據可視化。同時本書還將以商業應用為目標,通過學習還將掌握何利用學習到的Python數據分析知識來完成客戶留存分析,同期群分析,時間序列分析,產品銷售數據的關聯分析,客戶聚類,統計檢驗等數據分析。


目錄大綱


目錄
 
 
 
 
上篇Pandas數據分析基礎
 
第1章數據分析初探
 
1.1“數據+”時代的到來
 
1.2什麽是數據分析
 
1.2.1數據分析的目標
 
1.2.2數據分析分類
 
1.2.3典型的數據分析方法
 
1.3數據分析的基本流程
 
1.3.1問題定義
 
1.3.2收集數據
 
1.3.3數據處理
 
1.3.4數據分析
 
1.3.5結果解讀與應用
 
1.4硝煙中的數據分析
 
1.4.1數據分析的產生
 
1.4.2驗證問題
 
1.4.3尋找原因
 
1.4.4數據怎麽說
 
1.4.5數據分析中應該避免的典型問題
 
第2章搭建數據科學開發環境
 
2.1為什麽選擇Python
 
2.1.1人生苦短,我用Python
 
2.1.2為何Python是數據科學家的最佳選擇
 
2.2Python數據科學開發棧
 
2.2.1Cython
 
2.2.2NumPy
 
2.2.3IPython
 
2.2.4Jupyter
 
2.2.5SciPy
 
2.2.6Matplotlib
 
2.2.7Pandas
 
2.2.8Scikitlearn
 
 
2.2.9NetworkX
 
 
2.2.10PyMC3
 
2.2.11數據科學領域中最新的一些Python包
 
2.3Anaconda的安裝與使用
 
2.3.1安裝Anaconda
 
2.3.2利用Conda管理Python環境
 
2.3.3利用Conda管理Python包
 
2.3.4安裝本書所需的包
 
2.4使用Jupyter Notebook進行可重復數據分析
 
2.4.1Jupyter Notebook的配置
 
2.4.2Jupyter Notebook中的單元格
 
2.4.3Jupyter Notebook中的命令模式與編輯模式鍵
 
2.4.4使用Jupyter Notebook進行數據分析
 
 
 
 
 
第3章Pandas基礎
 
3.1什麽是DataFrame
 
3.1.1DataFrame的基本要素
 
3.1.2數據類型
 
3.1.3瞭解Series
 
3.1.4鏈式方法
 
3.2索引與列
 
3.2.1修改索引與列
 
3.2.2添加、修改或刪除列
 
3.3選擇多列
 
第4章數據篩選
 
4.1使用.loc和.iloc篩選行與列數據
 
4.1.1選擇Series和DataFrame中的行
 
4.1.2同時選擇行與列
 
4.2布爾選擇
 
4.2.1計算布爾值
 
4.2.2多條件篩選數據
 
第5章開始利用Pandas進行數據分析
 
5.1瞭解元數據
 
5.2數據類型轉換
 
5.3缺失數據與異常數據處理
 
5.3.1缺失值與重復值
 
5.3.2處理缺失數據
 
5.3.3NumPy與Pandas對缺失數據的不同處理方式
 
5.3.4填充缺失值
 
5.4處理重復數據
 
5.5異常值
 
5.6描述性統計
 
 
第6章數據整理
 
6.1什麽是數據整理
 
6.1.1數據的語義
 
6.1.2整齊的數據
 
 
6.2數據整理實戰
 
6.2.1列標題是值,而非變量名
 
6.2.2多個變量存儲在一列中
 
6.2.3變量既在列中存儲,又在行中存儲
 
6.2.4多個觀測單元存儲在同一表中
 
6.2.5一個觀測單元存儲在多個表中
 
6.2.6思考
 
第7章分組統計
 
7.1分組、應用和聚合
 
7.2Pandas中的GroupBy操作
 
7.2.1單列數據分組統計
 
7.2.2多列數據分組統計
 
7.2.3使用自定義函數進行分組統計
 
7.2.4數據過濾與變換
 
第8章數據整合
 
8.1數據讀入
 
8.1.1基本數據讀入方法
 
8.1.2文件讀取進階
 
8.1.3讀取其他格式文件
 
8.2數據合並
 
8.2.1認識merge操作
 
8.2.2merge進階
 
8.2.3join與concat
 
第9章數據可視化
 
9.1Matplotlib
 
9.1.1繪制第一個散點圖
 
9.1.2理解figure與axes
 
9.1.3Matplotlib中面向對象與類Matlab語法的區別
 
9.1.4修改坐標軸屬性
 
9.1.5修改圖形屬性
 
9.1.6定製圖例,添加標註
 
9.1.7子圖
 
9.1.8利用Matplotlib繪制各種圖形
 
9.2Pandas繪圖
 
9.2.1Pandas基礎繪圖
 
9.2.2整合Pandas繪圖與Matplotlib繪圖
 
9.3Seaborn
 
9.3.1Seaborn中的樣式
 
9.3.2Seaborn繪制統計圖形
 
9.4可視化進階
 
9.4.1其他可視化工具
 
9.4.2推薦讀物
 
第10章探索性數據分析——某電商銷售數據分析
 
10.1數據清洗
 
10.1.1分析準備
 
10.1.2瞭解數據
 
10.2數據清洗與整理
 
10.2.1數據類型轉換與錯誤數據刪除
 
10.2.2添加新數據
 
10.3探索性數據分析
 
10.3.1客戶分析
 
10.3.2訂單趨勢分析
 
10.3.3客戶國家分析
 
10.3.4留給讀者的問題
 
下篇Python數據分析實戰
 
第11章群組分析
 
11.1群組分析概述
 
11.1.1從AARRR到RARRA的轉變
 
11.1.2什麽是群組分析
 
11.2群組分析實戰
 
11.2.1定義群組以及周期
 
11.2.2群組分析具體過程
 
11.2.3思考
 
第12章利用RFM分析對用戶進行分類
 
12.1RFM分析簡介
 
12.1.1RFM模型概述
 
12.1.2理解RFM
 
12.2RFM實戰
 
12.2.1R、F、M值的計算
 
12.2.2利用RFM模型對客戶進行細分
 
12.2.3思考
 
第13章購物籃分析
 
13.1購物籃分析概述
 
13.1.1什麽是購物籃分析
 
13.1.2購物籃分析在超市中的應用
 
13.1.3購物籃分析實現
 
13.2購物籃分析案例
 
13.2.1Mlxtend庫中Apriori算法使用介紹
 
13.2.2在線銷售數據購物籃分析
 
13.3留給讀者的思考
 
第14章概率分佈
 
14.1隨機數
 
14.2常見的概率分佈
 
 
14.2.1均勻分佈
 
14.2.2正態分佈
 
14.2.3二項分佈
 
14.2.4泊松分佈
 
14.2.5幾何分佈與指數分佈
 
14.3點估計與置信區間
 
14.3.1點估計
 
14.3.2抽樣分佈與中心極限定理
 
14.3.3置信區間
 
14.4留給讀者的思考
 
第15章假設檢驗
 
15.1假設檢驗概述
 
15.1.1初識假設檢驗
 
15.1.2假設檢驗的步驟
 
15.1.3假設檢驗中的Ⅰ類錯誤與Ⅱ類錯誤
 
15.2Python中的假設檢驗
 
15.2.1單樣本ttest
 
15.2.2雙樣本ttest
 
15.2.3配對ttest
 
15.2.4卡方檢驗
 
15.3留給讀者的思考
 
第16章一名數據分析師的游戲上線之旅
 
16.1游戲啟動時間是否超過目標
 
16.1.1啟動時間是否超過3秒
 
16.1.2構造啟動時間監測圖
 
16.2次日留存率是否大於30%
 
16.3應該在游戲第幾關加入關聯微信提示
 
16.3.1A/B測試
 
16.3.2貝葉斯解決方案
 
16.4如何定價
 
16.5留給讀者的思考
 
第17章利用數據分析找工作
 
17.1設定分析目標
 
17.1.1問題定義
 
17.1.2獲取數據
 
17.2準備分析數據
 
17.2.1數據準備
 
17.2.2數據清洗
 
17.3開始數據分析
 
17.3.1職位來自哪裡
 
17.3.2職位薪酬如何
 
17.3.3崗位要求
 
17.3.4思考
 
第18章用數據解讀成都房價
 
18.1設定分析目標
 
18.1.1問題定義
 
18.1.2獲取數據
 
18.2解讀成都二手房
 
18.2.1數據準備
 
18.2.2列名調整
 
18.2.3數據類型轉換
 
18.2.4數據解讀
 
18.2.5思考
 
第19章時間序列分析
 
19.1認識時間序列數據
 
19.1.1讀入時間序列數據
 
19.1.2時間序列數據的可視化
 
19.2時間序列數據的分解
 
19.2.1認識時間序列數據中的模式
 
19.2.2Python中進行時間序列數據的分解
 
19.3時間序列的平穩性
 
19.3.1認識平穩與非平穩時間序列
 
19.3.2如何讓時間序列平穩
 
19.4利用ARIMA模型分析傢具銷售
 
19.4.1ARIMA模型簡介
 
19.4.2數據準備
 
19.4.3ARIMA模型中的參數
 
19.5留給讀者的思考
 
第20章股票數據分析
 
20.1股票收益分析
 
20.1.1獲取股票數據
 
20.1.2計算每日收益
 
20.1.3多只股票收益比較
 
20.1.4股價相關性分析
 
20.2CAPM資產定價模型選股
 
20.2.1CAPM公式
 
20.2.2在Python中實現CAPM
 
20.3留給讀者的思考
 
第21章大規模數據處理
 
21.1不同規模數據處理工具的選擇
 
21.2利用Pandas處理大規模數據
 
21.2.1文件分塊讀入
 
21.2.2使用數據庫
 
21.2.3使用DASK
 
21.3其他可選方法
 
21.4留給讀者的思考




相關書籍

Density Ratio Estimation in Machine Learning

作者 Masashi Sugiyama Taiji Suzuki Takafumi Kanamori

2020-07-01

Tableau 數據可視化從入門到精通 (視頻教學版)

作者 王國平

2020-07-01

大數據時代的軟件工程:軟件科學家與數據科學家的思維碰撞

作者 蒂姆·孟席斯 (Tim Menzies) 勞里·威廉姆斯 (Laurie Williams) 托馬斯·齊默爾曼 (Thomas Zimmermann)

2020-07-01